Agent_ Agent相关新闻_ Agent动态

QuestMobile 2026年AI应用市场发展半年报

2026年上半年AI应用市场呈现结构性变革：AI原生App月活达4.99亿、同比增长85.4%，用户黏性显著提升，豆包、千问、DeepSeek构成头部梯队；AI Agent加速落地，分化为终端系统型、生态办事型、办公交付型和自主代理型四类路径；传统APP面临功能原子化（Skill化）与内容供给化趋势，移动互联网底层逻辑正被AI驱动的‘服务找人’和‘被AI引用’新分发范式重构。

QuestMobile2小时前

当 AI Agent 开始自主决策，谁为其财税后果负责？

AI Agent正从辅助工具转向自主参与经济活动，尤其在加密资产财税场景中引发责任归属问题。FinTax与Stair AI合作构建可追溯、可验证的AI财税基础设施，通过执行账本和结构化知识沉淀，解决AI决策黑盒、语境缺失与责任难溯三大瓶颈，推动AI进入财税核心流程并支撑合规监管。

时氪分享4小时前

AI打工大排行：Claude Fable 5自动赚钱的能力，是GPT-5.5的2.5倍

Fable 5在远程劳动力指数（RLI）中实现16.1%自动化率，远超Opus 4.8和GPT-5.5，反映AI代理在真实商业自由职业任务中独立赚钱能力的加速提升；RLI基于240个Upwork真实项目，以人类评审判定交付物是否达到付费客户可接受标准，强调经济价值而非单纯技术指标。

新智元20小时前

大模型进入Agent时代，国产AI究竟差哪了？

文章探讨大模型进入Agent时代后国产AI与海外产品的体验差距，指出国产模型在中文理解、长文本处理、代码推理等局部能力已领先，但在多模态生成（尤其文生图）、端到端自主执行物理世界任务、以及支撑深度推理的商业模式（如付费生态与算力投入）上存在系统性短板，导致用户倾向选择海外Agent。

壹度Pro07月10日 17:20

坏！卖token的核心机密被老马学到了

文章分析Grok 4.5发布背后的商业逻辑转变：模型竞争焦点从榜单分数转向真实工作流中的成本效率与可计费性，强调coding agent时代IDE成为新入口，评测权、入口权和计费权正整合为统一战场，中美厂商均围绕token经济性与工作流集成展开竞争。

象先志07月10日 11:45

为了跟 GPT-5.6 抢头条，扎克伯格破天荒到对手地盘「打广告」

Meta发布Muse Spark 1.1多模态推理模型，强化Agent能力，支持长上下文（100万token）、跨应用任务调度、计算机操作、代码生成与多模态理解，并同步开放Meta Model API公测；同时推进自研AI芯片Iris量产及7GW算力基建扩张，加速实现个人超级智能愿景。

爱范儿07月10日 10:28

现代AI之父新作：13个大模型实测，检索agent真的可信吗？

研究团队通过SearchGEO评测框架，对13个主流大模型在检索增强场景下的抗操纵能力进行系统测试，发现模型安全性差异显著：Claude表现最稳但存在沉默漂移和误拒风险，GPT在常规任务中稳健却在agent技能推荐等新场景下近乎完全失守，Gemini等模型则易受合成共识攻击；研究强调需将搜索可靠性纳入核心安全评测，并针对‘模型+框架’组合设计防御。

新智元07月09日 17:38

翁荔新博客提出「自进化先从Harness开始」，DeepSeek崔添翼转发附议

翁荔提出AI自进化可优先从Harness（模型外部运行系统）入手，而非直接修改模型权重；Harness涵盖工具调用、上下文管理、任务拆分等能力，其自我优化已通过Weakness Mining、Harness Proposal和Proposal Validation等工程化路径验证，并在多个模型上提升任务表现；崔添翼附议该方向为重要突破口。

量子位07月08日 18:24

团灭，大厂集体下架AI聊天机器人

7月15日起，豆包、千问等大厂AI产品将下架拟人化聊天机器人功能，依据国家网信办《人工智能拟人化互动服务管理暂行办法》，重点整治情感诱导、危害未成年人及泄露敏感信息等问题；监管旨在淘汰消耗注意力的陪聊类AI，保留并鼓励提升生产力的工具型AI智能体，推动AI向办公提效、流程自动化和降低专业门槛方向发展。

唐韧07月08日 15:53

3.8万小时、狂烧天价token：字节发现Agent的 Scaling Law

字节跳动Seed团队发布EdgeBench评测平台，通过134个长时程任务（单任务至少运行12小时）、总计约3.8万小时Agent运行实验，首次发现Agent环境学习遵循高精度log-sigmoid Scaling Law（R²达0.998），揭示其学习过程具有可预测性、路径多样性、经验依赖性及学习效率持续加速等核心规律，推动AI评测从静态能力向动态成长能力范式跃迁。

硅星人Pro07月08日 11:32

全面超越「龙虾」的「爱马仕」，给国产Agent上了一课

文章对比分析开源AI Agent产品OpenClaw（龙虾）与Hermes（爱马仕），指出Hermes v0.18.0通过多智能体协作（MoA）、基于证据的自我验证、可编辑的学习循环（/learn、/journey）及后台子Agent等能力，显著提升任务可靠性与交付质量，为国产Agent发展提供从‘卷功能’转向‘卷质量’的关键启示。

雷科技07月08日 09:10

热搜里的“天才少年 × DeepSeek”：李博杰曾任首席科学家的 Pine AI，是一家什么公司？

前华为“天才少年”李博杰因研究方向转向基础模型而离开Pine AI，加入DeepSeek未果引发舆论关注；Pine AI是一家成立于2024年、面向美国市场的AI Agent公司，专注真实世界任务执行（如账单谈判、订阅取消），已实现高成功率和用户价值闭环，代表AI从模型竞赛向应用落地的演进趋势。

解码Decode07月08日 08:50

AI Agent 不缺掌声，缺的是订单

文章探讨AI Agent行业现状：一边是Cursor被SpaceX以600亿美元收购等头部公司成功变现，一边是多数项目因无法解决验收标准、计费模式与预算来源三大现实问题而止步于试点。核心指出Agent商业化的关键不在技术炫酷，而在能否成为可验证、可计价、可嵌入既有预算的采购商品。

韦韦-wiwi07月07日 07:35

76%的性能提升与模型无关？Karpathy 700次 Loop 实验揭开Agent最大误区

文章揭示AI领域对Agent的普遍误区：过度关注模型本身而忽视外层执行机制（Harness）的重要性。实验证明，仅优化Harness（如代码逻辑、文件处理、流程编排），不改动模型权重，即可使DeepSeek-V4-Pro在法律任务中综合得分从3.5%跃升至80.1%，性能提升达76个百分点，甚至媲美顶级闭源模型。Karpathy的Loop Cycle实验进一步表明，自动化迭代循环（提出修改-运行-评估-保留）可大幅提升系统持续进化能力。

AI前线07月06日 20:28

让AI Agent学会“及时停手”：华盛顿大学团队提出上下文工程方法CONVOLVE

华盛顿大学团队提出Agentic Abstention框架及上下文工程方法CONVOLVE，解决AI Agent在多轮交互中难以及时判断任务不可行而停止行动的问题；该方法通过提炼交互轨迹生成可复用的停止规则，无需修改模型参数，显著提升各规模模型的弃答能力与迁移性。

账号已注销07月06日 10:37

暂无内容

加载更多

QuestMobile 2026年AI应用市场发展半年报

当 AI Agent 开始自主决策，谁为其财税后果负责？

AI打工大排行：Claude Fable 5自动赚钱的能力，是GPT-5.5的2.5倍

大模型进入Agent时代，国产AI究竟差哪了？

坏！卖token的核心机密被老马学到了

为了跟 GPT-5.6 抢头条，扎克伯格破天荒到对手地盘「打广告」

现代AI之父新作：13个大模型实测，检索agent真的可信吗？

翁荔新博客提出「自进化先从Harness开始」，DeepSeek崔添翼转发附议

团灭，大厂集体下架AI聊天机器人

3.8万小时、狂烧天价token：字节发现Agent的 Scaling Law

全面超越「龙虾」的「爱马仕」，给国产Agent上了一课

热搜里的“天才少年 × DeepSeek”：李博杰曾任首席科学家的 Pine AI，是一家什么公司？

AI Agent 不缺掌声，缺的是订单

76%的性能提升与模型无关？Karpathy 700次 Loop 实验揭开Agent最大误区

让AI Agent学会“及时停手”：华盛顿大学团队提出上下文工程方法CONVOLVE

推荐专题

热门新闻

友情链接

投资AI和Web3，下载火星财经APP

账号密码登录

修改昵称

QuestMobile 2026年AI应用市场发展半年报

当 AI Agent 开始自主决策，谁为其财税后果负责？

AI打工大排行：Claude Fable 5自动赚钱的能力，是GPT-5.5的2.5倍

大模型进入Agent时代，国产AI究竟差哪了？

坏！卖token的核心机密被老马学到了

为了跟 GPT-5.6 抢头条，扎克伯格破天荒到对手地盘「打广告」

现代AI之父新作：13个大模型实测，检索agent真的可信吗？

翁荔新博客提出「自进化先从Harness开始」，DeepSeek崔添翼转发附议

团灭，大厂集体下架AI聊天机器人

3.8万小时、狂烧天价token：字节发现Agent的 Scaling Law

全面超越「龙虾」的「爱马仕」，给国产Agent上了一课

热搜里的“天才少年 × DeepSeek”：李博杰曾任首席科学家的 Pine AI，是一家什么公司？

AI Agent 不缺掌声，缺的是订单

76%的性能提升与模型无关？Karpathy 700次 Loop 实验揭开Agent最大误区

让AI Agent学会“及时停手”：华盛顿大学团队提出上下文工程方法CONVOLVE

推荐专题

热门新闻

友情链接

投资AI和Web3，下载火星财经APP

商务合作